#추론 속도 최적화

EAGLE, vLLM, TorchSpec 3사 협업한 추론 속도 혁신

EAGLE, vLLM, TorchSpec 팀이 협력하여 대규모 언어 모델(LLM)의 추론 속도를 획기적으로 높이는 'EAGLE 3.1' 스페큘러티브 디코딩(Speculative Decoding) 알고리즘을 발표했습니다. 이번 업데이트는 긴 문맥이나 다양한 프롬프트 환경에서 발생하는 '어텐션 드리프트(Attention Drift)' 문제를 해결하여, 기존 대비 최대 2배 긴 컨텍스트 수용 길이를 달성하며 모델 배포 안정성을 크게 높였습니다. 또한 실제 서비스 모델인 Kimi K2.6용 드래프트 모델을 오픈소스로 공개하고 vLLM 메인 브랜치에 통합하여 산업계의 실사용성을 강화했다는 점에서 중요합니다.

추론 속도 최적화 스페큘러티브 디코딩 오픈소스

r/LocalLLaMA • 74일 전

IMP 8

Orthrus-Qwen3-8B: 동일 출력 분포 유지하며 토큰 처리 속도 최대 7.8배 향상

기존 언어모델(Qwen3-8B)의 가중치를 고정한 채 학습 가능한 디퓨전 어텐션 모듈을 삽입해 모델의 원래 성능과 출력을 완벽하게 유지하면서도 토큰 처리 속도를 최대 7.8배까지 끌어올린 기술입니다. 기존의 디퓨전 기반 모델들이 성능 저하를 겪거나, 추측 디코딩(Speculative Decoding) 방식이 별도의 모델 초기화로 인해 지연 시간(TTFT) 페널티를 받는 것과 달리, 오버헤드 없이 압도적인 수용 길이(11.7)를 달성했다는 점이 핵심입니다.

추론 속도 최적화 디퓨전 모델 Qwen3

r/LocalLLaMA • 82일 전

IMP 8

z-lab, 최대 3.7배 빠른 추론 모델 DFlash 공개

z-lab이 구글의 Gemma 모델과 결합하여 최대 3.7배의 추론 속도 향상을 제공하는 스펙큘레이티브 디코딩(Speculative Decoding) 초안 모델 'gemma-4-26B-A4B-it-DFlash'를 공개했습니다. 이 모델은 가벼운 블록 디퓨전(Block Diffusion) 모델을 활용해 여러 토큰을 병렬로 동시 생성하여 기존 자기회귀(Autoregressive) 방식 대비 처리량(Throughput)을 획기적으로 높였습니다. vLLM 및 SGLang 환경에서 즉시 사용할 수 있으며, 엔지니어링 및 컴퓨팅 리소스 지원을 통해 개발 및 훈련되었습니다.

추론 속도 최적화 스펙큘레이티브 디코딩 오픈소스 AI 모델

MarkTechPost • 84일 전

IMP 8

구글 AI, Gemma 4용 MTP 공개…품질 손실 없이 최대 3배 빠른 추론

구글 AI가 Gemma 4 모델 패밀리를 위해 다중 토큰 예측(MTP) 초안화기(Drafter)를 새롭게 공개했습니다. 이 도구는 추측적 디코딩(Speculative Decoding) 기술을 활용하여 모델의 품질 저하 없이 최대 3배 빠른 추론 속도를 달성합니다. 이는 실시간 애플리케이션이나 대규모 데이터 처리를 다루는 개발자들에게 AI 모델의 지연 시간을 획기적으로 줄여줄 매우 중요한 성능 개선입니다.

구글 AI Gemma 4 추론 속도 최적화

r/LocalLLaMA • 86일 전

IMP 8

Llama.cpp, MTP(다중 토큰 예측) 베타 지원 공개

로컬 AI 추론 엔진인 Llama.cpp에 여러 개의 토큰을 동시에 예측하여 처리 속도를 비약적으로 높이는 MTP(다중 토큰 예측) 기능이 베타로 추가되었습니다. 개발자는 기존 GGUF 모델 파일 하나만으로 MTP 모델을 자동으로 불러와 별도의 추가 배포 없이도 추론 속도를 2배 이상 크게 향상시킬 수 있습니다. 이는 로컬 환경에서 구동되는 오픈소스 대형 언어 모델(LLM)의 실질적인 응답 성능을 개선하는 중요한 이정표입니다.

Llama.cpp 추론 속도 최적화 MTP(다중 토큰 예측)

r/LocalLLaMA • 88일 전

IMP 9

PFlash: RTX 3090에서 128K 기준 llama.cpp 대비 프리필 10배 빠름

오픈소스로 공개된 ‘PFlash’는 소형 드래프트 모델로 토큰 중요도를 평가해 중요한 구간만 처리하는 ‘추측적 프리필(Speculative Prefill)’ 기법을 적용했습니다. 그 결과, RTX 3090(24GB) 환경에서 128K 길이의 프롬프트 처리 시 기존 llama.cpp보다 첫 토큰 생성 시간(TTFT)을 약 10.4배 단축시켰습니다. C++/CUDA로만 작성되어 Python 기반 오버헤드 없이 24GB 메모리 내에서 추론 전체가 실행되는 것이 특징입니다.

추론 속도 최적화 llama.cpp 오픈소스 LLM

r/LocalLLaMA • 113일 전

IMP 7

구글 지마 4, 다중 토큰 예측 기능 숨겨져 있었다

개발자가 안드로이드 기기에서 구글의 오픈소스 모델인 지마 4(Gemma 4)를 테스트하던 중, 파일 내부에 속도 향상을 위한 '다중 토큰 예측(MTP)' 가중치가 숨겨져 있음을 발견했습니다. 구글 측은 기기 호환성을 이유로 해당 기능을 의도적으로 제거했다고 확인했으나, 이미 빠른 MoE(혼합 전문가) 아키텍처 기반의 모델에서 MTP가 적용되었다면 텍스트 생성 속도가 획기적으로 빨라졌을 것이라는 아쉬움이 나오고 있습니다.

오픈소스 모델 지마 4 다중 토큰 예측